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Precede et systeme d'analyse de signaux vocaux pour la 
representation compacte de locuteurs. 



5 La pr6sente invention concerne un precede et un dispositif 

d'analyse de signaux vocaux. 

L' analyse de signaux vocaux necessite notamment de 
pouvoir repr6senter un locuteur. La representation d'un locuteur 
par un melange de gaussiennes ("Gaussian Mixture Model" ou 

10 GMM) est une representation efficace de Tidentite acoustique ou 
vocale d'un locuteur. Selon cette technique, il s'agit de 
representer le locuteur, dans un espace acoustique de r6f6rence 
d'une dimension pr6determinee, par une somme pond6r6e d'un 
nombre predetermine de gaussiennes. 

15 Ce type de representation est precis lorsque Ton dispose 

d'un grand nombre de donnees, et qu'il n'y a pas de contraintes 
physiques pour stocker les parametres du modele, ni pour executer 
des calculs sur ces nombreux parametres. 

Or, en pratique, pour representer un locuteur au sein de 

20 systemes informatiques, il arrive que le temps de parole d'un 
locuteur soit court, et que la taille de la memoire necessaire a ces 
representations, ainsi que les temps de calculs sur ces parametres 
soient trop importants. 

II est done important de chercher k representer un locuteur 

25 de mani^re a reduire drastiquement le nombre de parametres 
ndcessaires k sa representation tout en gardant des performances 
correctes. On entend par performance le taux d'erreurs de 
sequences vocales non reconnues comme appartenant ou non k un 
locuteur par rapport au nombre total de sequences vocales. 

30 Des solutions en ce sens ont 6te proposees, notamment 

dans le document "SPEAKER INDEXING IN LARGE AUDIO 
DATABASES USING ANCHOR MODELS" par D.E. Sturim, D.A. 
Reynolds, E. Singer and LP, Campbell. En effet, les auteurs 
proposent de representer un locuteur, non plus de maniere absolue 
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dans un espace acoustique de reference, mais de maniere relative 
par rapport a un ensemble predetermine de representations de 
locuteurs de r6f6rence appeles egalement modeles d'ancrages, 
pour lesquels on dispose de naodeles GMM-UBM (UBM pour 
5 "Universal Background Model"). On 6value la proximity entre un 
locuteur et les locuteurs de reference au moyen d'une distance 
euclidienne. Cela diminue enorm6ment les charges de calcul, mais 
les performances sont encore limit6es et insuffisantes. 

Au vu de ce qui precede, T invention a pour but d' analyser 
10 des signaux vocaux en repr6sentant les locuteurs par rapport a un 
ensemble predetermine de locuteurs de reference, avec un nombre 
de parametre reduits diminuant les charges de calculs pour des 
application en temps reel, avec des performances ac pep tables, en 
comparaison d'une analyse utilisant une representation par le 
15 modele GMM-UBM. 

On pent alors par exemple effectuer des indexations de 
documents audio de grandes bases de donnees oii le locuteur est la 
cle d'indexation. 

Ainsi, selon un aspect de rinvention, il est propose un 
20 proced6 d'analyse de signaux vocaux d'un locuteur (X), utilisant 
une densite de probabilite repr6sentant les ressemblances entre 
une representation vocale du locuteur (X) dans un modele 
predetermine et un ensemble predetermine de representations 
vocales d'un nombre E de locuteurs de reference dans ledit 
25 modele predetermine, et on analyse la densite de probabilite pour 
en deduire des informations portant sur les signaux vocaux. 

Cela permet de diminuer drastiquement le nombre de 
paramdtres utilises, et permet a des dispositifs mettant en oeuvre 
ce procede de pouvoir travailler en temps reel, en diminuant le 
30 temps de calcul, en diminuant la taille de la memoire necessaire. 

Dans un mode de mise en oeuvre prefere, on prend comme 
modele predetermine un modele absolu (GMM), de dimension D, 
utilisant un melange de M gaussiennes pour lequel le locuteur (A.) 
est represente par un ensemble de parametres comprenant des 
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coefficients de ponderation (aj, 1=1 a M) du melange de 
gaussiennes dans ledit modele absolu (GMM), des vecteurs de 
moyenne (ij,^, i=l a M) de dimension D et des matrices de 
covariance (Ej, i=l k M) de dimension DxD. 
5 Dans un mode de nodse en oeuvre avantageux, on represente 

la density de probability des ressemblances entre la representation 
desdits signaux vocaux du locuteur (X) et T ensemble predetermine 
de representations vocales des locuteurs de reference par une 
distribution gaussienne (\|/(M'^,S^)) de vecteur de moyenne (pi^) de 

10 dimension E et de matrice de covariance (S^) de dimension ExE 
estimes dans Tespace des ressemblances k 1' ensemble 
predetermine des E locuteurs de reference. 

Dans un mode de mise en oeuvre pre fere. Ton definit la 
ressemblance du locuteur (X) par rapport aux E 

15 locuteurs de reference, locuteur (X) pour lequel on dispose de Nj^ 
segments de signaux vocaux representes par Nj^ vecteurs de 
Fespace des ressemblances par rapport k T ensemble predetermine 
des E locuteurs de reference, en fonction d'un vecteur de moyenne 
((1^) de dimension E et d'une matrice de covariance (S^) des 

20 ressemblances du locuteur (X) par rapport aux E locuteurs de 
reference, 

Dans un mode de mise en oeuvre avantageux, on introduit 
en outre des informations a priori dans les densites de probabilite 
des ressemblances (\|r(p.^,l;^)) par rapport aux E locuteurs de 

25 reference. 

Dans un mode de mise en oeuvre prefere, la matrice de 
covariance du locuteur (X) est independante dudit locuteur 

Selon un autre aspect de T invention, il est propose un 
30 systeme d'analyse de signaux vocaux d'un locuteur (X), 
comprenant des bases de donnees dans lesquelles sont stockes des 
signaux vocaux d'un ensemble predetermine de E locuteurs de 
reference et leurs representations vocales associees dans un 
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moddle pr6d6termin6, ainsi que des bases de donnees d' archives 
audio, caract6ris6 en ce qu'il comprend des moyens d' analyse des 
signaux vocaux utilisant une representation vectorielle des 
ressemblances entre la repr6sentation vocale du locuteur et 
r ensemble pr6d6termine de representations vocales de E locuteurs 
de reference. 

Dans un mode de realisation avantageux, les bases de 
donnees memorisent 6galement T analyse des signaux vocaux 
effectuee par lesdits moyens d' analyse. 

L'invention peut s'appliquer k I'indexation de documents 
audio, toutefois d'autres applications peuvent 6galement Stre 
envisag6es, telles que T identification acoustique d'un locuteur ou 
la verification de I'identitd d'un locuteur. 

D'autres buts, caracteristiques et avantages de l'invention 
15 apparaitront a la lecture de la description suivante, donnee k titre 
d'exemple non limitatif, et faite en reference k I'unique dessin 
annexe illustrant une mise en application d'une utilisation du 
proc6de pour I'indexation de documents audio. 

La figure represente une application du syst^me selon un 
20 aspect de l'invention pour I'indexation de bases de donn6es audio. 
Bien entendu, l'invention s'applique 6galement a 1' identification 
acoustique d'un locuteur ou la verification de I'identite d'un 
locuteur, c'est-^-dire, de manifere generale, k la reconnaissance 
d* informations relatives au locuteur dans le signal acoustique. Le 
25 systeme comprend un moyen pour recevoir des donn6es vocales 
d'un locuteur, par exemple un micro 1, reli6 par une connexion 2 
avec ou sans fil k des moyens d'enregistrement 3 d'une requSte 
dnoncee par un locuteur X et comprenant un ensemble de signaux 
vocaux. Les moyens d'enregistrement 3 sont reli6s par une 
connexion 4 k des moyens de stockage 5 et, par une connexion 6, 
a des moyens de traitemeiit acoustique 7 de la requSte. Ces 
moyens de traitement acoustiques transforment les signaux vocaux 
du locuteur X en une representation dans un espace acoustique de 
dimension D par un modele GMM de representation du locuteur X. 
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Cette representation est definie par une somme pond6ree de M 
gaussiennes selon les equations : 



PW = Saibj(x) (1) 

i=l 

M 

Eai=l (3) 

i=l 

dans lesquelles : 

D est la dimension de I'espace acoustique du module GMM 
absolu; 

X est un vecteur acoustique de dimension D, ie vecteur des 
coefficients cepstraux d'une sequence de signal vocal du locuteur 
X dans le module GMM absolu ; 

M d^signe le nombre de gaussiennes du modMe GMM absolu, 
g6n6ralement puissance de 2 comprise entre 16 et 1024 ; 
bi(x) d6signe, pour i=l a D, densit6s gaussiennes, param6tr6es par 
un vecteur de moyenne Hj de dimension D et une matrice de 
covariance de dimension DxD; et 
15 ttj d^signe, pour i=l ^ D re^3^€ntent les coefficients de 
ponderation du melange de gaussiennes dans le module GMM 
absolu. 

Les moyens de traitement acoustique 7 de la requSte sont 
relies par une connexion 8 ^ des moyens d' analyse 9. Ces moyens 
d'analyse 9 sont aptes a representer un locuteur par un vecteur de 
density de probabilite representant les ressemblances entre la 
representation vocale dudit locuteur dans le module GMM choisi 
et des representations vocales de E locuteurs de reference dans le 
modele GMM choisi. Les moyens d'analyse 9 sont en outre aptes 
25 k effectuer des tests de verification et/ou d' identification d'un 
locuteur. 
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Pour realiser ces tests, les moyens d' analyse procedent h 
I'elaboration du vecteur de densit6s de probabilites, c'est-a-dire 
des ressemblances entre le locuteur et les locuteurs de reference. 

II s'agit de d6crire une representation pertinente d'un seul 
segment x du signal du locuteur X au moyen des equations 
suivantes : 



10 



15 



20 



pM^j)=7-'<'8 



dans lesquelles : 



:exp[-i'(x-H,)(2.r(x-^,)] 



(4) 

(5) 

(6) 
(7) 



w'^ est un vecteur de I'espace des ressemblances a I'ensemble 
predetermine des E locuteurs de reference representant le segment 
X dans cet espace de representation ; 

p(x^|Ij) est une densite de probabilite ou probabilite normalisee 

par un modele universel, representant la ressemblance de la 
representation acoustique x^ d'un segment de signal vocal d'un 
locuteur X, sachant un locuteur de reference ; 

Tx est le nombre de trames ou de vecteurs acoustiques du segment 
de parole x ; 

p(x^|ljj est une probabilite representant la ressemblance de la 

representation acoustique x^ d'un segment de signal vocal d'un 
locuteur X, sachant un locuteur de reference Xj ; 
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pI'^^I^ubm) est une probability repr^sentant la ressemblance de la 

representation acoustique d'un segment de signal vocal d'un 
locuteur X dans le modele du monde UBM; 

M est le nombre de gaussiennes du modele GMM relatif, 
5 gen6ralement puissance de 2 comprise entre 16 et 1024 ; 

D est la dimension de I'espace acoustique du module GMM 
absolu; 

X est un vecteur acoustique de dimension D, ie vecteur des 
coefficients cepstraux d'une sequence de signal vocal du locuteur 
10 X dans le module GMM absolu; 

bk(x) repr6sente, pour k=l a D, des densit6s gaussiennes. 
param6tr6es par un vecteur de moyenne de dimension D et une 
matrice de covariance Ej, de dimension DxD ; 

at represente, pour k=l k D, les coefficients de pond6ration du 
15 melange de gaussiennes dans le modMe GMM absolu ; 

A partir des representations Wj des segments de parole Xj 
(j=l,..,Nx) du locuteur X, on represente le locuteur X par la 
distribution gaussienne \|/ de parametres et d6finis paries 
relations suivantes: 

X j=l 

dans lesquelles represente des composantes du vecteur de 
moyenne p,^ de dimension E des ressemblances du 
locuteur X par rapport aux E locuteurs de reference, et 2^. 
represente des composantes de la matrice de covariance 2^ de 
dimension ExE des ressembles du locuteur X par rapport 

aux E locuteurs de r6f6rence. 

Les moyens d* analyse 9 sont relics par une connexion 10 k 
des moyens d'apprentissage 11 permettant de calculer les 
representations vocales, sous forme de vecteurs de dimension D, 
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des E locuteurs de r6f6rence dans le module GMM choisi. Les 
moyens d'apprentissage 11 sont relies par une connexion 12 k une 
base de donn6es 13 comprenant des signaux vocaux d'un ensemble 
predetermine de locuteurs et leurs representations vocales 
5 associ6es dans le module GMM de r6f6rence. Cette base de 
donn6es peut egalement stocker le r6sultat de T analyse de signaux 
vocaux de locuteurs initiaux except^ lesdits E locuteurs de 
reference. La base de donnees 13 est reliee par la connexion 14 
aux moyens d' analyse 9 et par une connexion 15 aux moyens de 

10 traitement acoustique 7. 

Le systfeme comprend en outre une base de donnees 16 
reliee par une connexion 17 aux moyens de traitement acoustique 
7, et par une connexion 18 aux moyens d'analyse 9, La base de 
donnees 16 comprend des archives audio sous formes d' articles 

15 vocaux, ainsi que les representations vocales associees dans le 
modele GMM choisi. La base de donnees 16 est egalement apte a 
stocker les representations associees des articles audio calcul6es 
par les moyens d'analyse 9. Les moyens d'apprentissage 11 sont 
en outre relies par une connexion 19 aux moyens de traitement 

20 acoustique 7. 

On va maintenant decrire un exemple de fonctionnement de 
ce systeme pouvant fonctipnner en temps reel car le nombre de 
parametres utilises est nettement reduit par rapport au module 
GMM, et car beaucoup d'etapes peuvent $tre effectuees hors- 

25 ligne. 

Le module d'apprentissage 11 va determiner les 
representations dans le modele GMM de reference des E locuteurs 
de reference au moyen des signaux vocaux de ces E locuteurs de 
reference stockes dans la base de donnees 13, et des moyens de 
30 traitement acoustique 7. Cette determination s'effectue selon les 
relations (1) a (3) mentionnees ci-dessus. Get ensemble de E 
locuteurs de reference va representer le nouvel espace de 
representation acoustique. Ces representations des E locuteurs de 
reference dans le modele GMM sont stockees en memoire, par 



wo 2005/015547 



PCT/FR2003/002037 



9 



exemple dans la base de donn6es 13. Tout cela peut etre effectue 
hors-ligne. 

Lorsque Von regoit des donnees vocales d'un locuteur X, 
par exemple par le micro 1, celles-ci sent transmises par la 
5 connexion 2 aux moyens d'enregistrement 3 aptes a effectuer le 
stockage de ces donn6es dans les moyens de stockage 5 a I'aide de 
la connexion 4. Les moyens d'enregistrement 3 transmettent cet 
enregistrement aux moyens de traitement acoustique 7 par la 
connexion 6. Les moyens de traitement acoustique 7 calculent une 

10 repr6sentation vocale du locuteur dans le inodele GMM 
predetermine comme expose pr6c6demment en reference aux 
relations (1) ^ (3) ci-dessus. 

En outre, les moyens de traitement acoustique 7 ont 
calcule, par exemple hors-ligne, les representations vocales d'un 

15 ensemble de S locuteurs de test et d'un ensemble de T locuteurs 
dans le modele GMM predetermine. Ces ensembles sont distincts. 
Ces representations sont stockees dans la base de donnees 13. Les 
moyens d' analyse 9 calculent, par exemple hors-ligne, une 
representation vocale des S locuteurs et des T locuteurs par 

20 rapport aux E locuteurs de reference. Cette representation est une 
representation vectorielle par rapport a ces E locuteurs de 
reference, comme decrit precedemment. Les moyens d' analyse 9 
effectuent 6galement, par exemple hors-ligne, une representation 
vocale des S locuteurs et des T locuteurs par rapport aux E 

25 locuteurs de reference, et une representation vocale des articles 
des locuteurs de la base audio. Cette representation est une 
representation vectorielle par rapport k ces E locuteurs de 
reference. 

Les moyens de traitement 7 transmettent la representation 
30 vocale du locuteur X dans le modfele GMM predetermine aux 
moyens d' analyse 9, qui calculent une representation vocale du 
locuteur X. Cette representation est une representation par densite 
de probabilite des ressemblances aux E locuteurs de reference. 
EUe est calculee en introduisant de T information k priori au 
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moyen des representations vocales de T locuteurs. En effet, 
Tutilisation de cette information k priori permet de garder una 
estimation fiable, m8me lorsque le nombre de segments de paroles 
disponibles du locuteur X est faible. On introduit de 1' information 
h. priori au moyen des Equations suivantes : 

^ No+N, ^^^> 
W = (w!«-^..w^-i...wl«-'^...w|j^-'^) (11) 
dans lesquelles : 

p.^ : vecteur de moyenne de dimension E des ressemblances 

y^(y},t^) du locuteur X par rapport aux E locuteurs de 
10 r6f6rence ; 

ISfx : nombre de segments de signaux vocaux du locuteur X 

repr6sent6s par N^^ vecteurs de Tespace des ressemblances k 
r ensemble predetermine des E locuteurs de reference ; 
W : matrice de toutes les donn6es initiales d'un ensemble de T 
15 locuteurs loc_i, pour i=l k T, dont les colonnes sont des 

vecteurs de dimension E repr^sentant un segment de signal 
vocal represent^ par un vecteur de I'espace des ressemblances 
k r ensemble predetermine des E locuteurs de reference, 
chaque locuteur loc_i ayant Nj segments vocaux, caracterise 
par son vecteur de moyennes iXq de dimension E, et par sa 
matrice de covariance Xq de dimension ExE ; 
p,^ : vecteur de moyenne de dimension E des ressemblances 

v(p.^,2'^) du locuteur X par rapport aux E locuteurs de 

reference, avec introduction d'informations k priori; et 
25 2^ : matrice de covariance de dimension ExE des ressemblances 

du locuteur X par rapport aux E locuteurs de 
reference avec introduction d'informations a priori. 

On pent prendre de surcrott une unique matrice de 
covariance pour chaque locuteur, ce qui permet d'orthogonaliser 
ladite matrice hors-ligne, et les calculs de densites de probabilites 
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seront alors effectu6s avec des matrices de covariance diagonales. 
Dans ce cas, cette unique matrice de covariance est definie selon 
les relations : 

T 



= 2 XK - Wj,)(w, j - W,,) (12) 

^^0 S=l j€l. 



Wis=Tf EWy (13) 
dans lesquelles 

W est une matrice de toutes les donn6es initiales d'un ensemble 
de T locuteurs loc_i, pour i=l k T, dont les colonnes sont des 
vecteurs de dimension E repr^sentant un segment de signal vocal 
repr^sente par un vecteur de Tespace des ressemblances a 
r ensemble predetermine des E locuteurs de reference, chaque 
locuteur loc_i ayant Nj segments vocaux, caracterise par son 
vecteur de moyennes de dimension E, et par sa matrice de 
covariance de dimension ExE. 

Ensuite les moyens d' analyse 9 vont comparer les 
representations vocales de la requSte et des ^t^^i ik^l^^^^^^ 
articles de la base par des tests en identification et/ou verification 
du locuteurs. Le test en identification de locuteur consiste a 
evaluer une mesure de vraisemblance entre le vecteur du segment 
de test et T ensemble des representations des articles de la base 
audio. Le locuteur identifie correspond a celui qui donne un score 
de vraisemblance maximal, soit X = argnmxp(w^|fl^,i:^j (14) parmi 

Tensemble des S locuteurs. 

Le test en verification de locuteur consiste a calculer un 
score de vraisemblance entre le vecteur du segment de test et 
Tensemble des representations des articles de la base audio 
normalise par son score de vraisemblance avec la representation 
de r information a priori. Le segment est authentifie si le score 
excfede un seuil donne predetermine, ledit score etant donne par la 
relation suivante: 
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score = -] — — — f (15) 



Chaque fois que le locuteur X est reconnu dans un article 
de la base, on indexe cet article au moyen d'une information 
permettant de savoir que le locuteur X parle dans cet article 
audio. 

On peut 6galement appliquer cette invention a d'autres 
utilisations, comme la reconnaissance ou 1' identification d'un 
locuteur. 

Cette representation compacte d'un locuteur permet de 
r6duire de fagon drastique le coflt de calcul, car il y a beaucdup 
moins d' operation 616mentaires au vu de la reduction drastique du 
nombre de param^tres n^cessaires k la repr6sentation d'un 
locuteur. 

Par exemple, pour une requSte de 4 secondes de paroles 
d'un locuteur, c'est-^-dire 250 trames, pour un modMe GMM de 
dimension 27, k 16 gaussiennes le nombre d' operations 
elementaires est reduit d'un facteur 540, ce qui reduit 6norm6ment 
le temps calcul. En outre, la taille de m6moire utilisee pour 
20 stocker les representations des locuteurs est nettement reduite. 

L' invention permet done d' analyser des signaux vocaux 
d'un locuteur en reduisant de maniere drastique le temps de calcul 
et la taille m^moire de stockage des representations vocales des 
locuteurs. 

25 
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REVENDICATIONS 



1. Proc6d6 d' analyse de signaux vocaux d'un locuteur 
(X), caracteris6 en ce que Ton utilise une density de probabilite 

5 representant les ressemblances entre une representation vocale du 
locuteur (X) dans un module predetermine et un ensemble 
pr6d6termin6 de representations vocales d'un nombre E de 
locuteurs de reference dans ledit modele pr6d6termine, et on 
analyse la density de probabilite pour en deduire des informations 
10 sur les signaux vocaux. 

2. Procede selon la revendication 1, caracterise en ce 
que Ton prend comme modele predetermine un modele absolu 
(GMM), de dimension D, utilisant un melange de M gaussiennes 
pour lequel le locuteur (X) est represents par un ensemble de 

15 parametre.s comprenant des coefficients de ponderation (a^, i=l a 
M) du melange de gaussiennes dans ledit modele absolu (GMM), 
des vecteurs de moyenne (1x^,1=1 a M) de dimension D et des 
matrices de covariance (Si, i=l a M) de dimension DxD. 

3. Procede selon la revendication 2, caracterise en ce 
20 que Ton repr6sente la density de probabilite des ressemblances 

entre la representation desdits signaux vocaux du locuteur (X) et 
r ensemble pr6d6termine de representations vocales des locuteurs 
de reference par une distribution gaussienne de vecteur 

de moyenne de dimension E et de matrice de covariance (S^) 
25 de dimension ExE estimSs dans I'espace des ressemblances a 
r ensemble predetermine des E locuteurs de reference. 

4. Procede selon la revendication 3, caracterise en ce 
que Ton definit la ressemblance du locuteur (X) par 

rapport aux E locuteurs de reference, locuteur (X) pour lequel on 
30 dispose de Nj^ segments de signaux vocaux representes par 

vecteurs de Tespace des ressemblances par rapport k I'ensemble 
predetermine des E locuteurs de reference, en fonction d'un 
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vecteur de moyenne (jx^) de dimension E et d'une matrice de 
covariance (S^) des res semblances du locuteur (X) par rapport aux 
E locuteurs de riSference. 

5. Proc6de selon la revendication 4, caracterise en ce 
5 que Ton introduit en outre des informations a priori dans les 

densites de probabilit6 des ressemblances (\|r(p,'^,E^j) par rapport 

aux E locuteurs de reference. 

6. Proced6 selon la revendication 5, caracterise en ce 
que la matrice de covariance du locuteur (X) est independante 

10 dudit locuteur (2^ = S). 

7. Systeme d'analyse de signaux vocaux d'un locuteur 
(X), coniprenant des bases de donn6es dans lesquelles sont stockes 
des signaux vocaux d^un ensemble predetermine de locuteurs et 
leurs representations vocales associees dans un module 

IS predetermine par melange de gaussiennes, ainsi que des bases de 
donnees d* archives audio, caracterise en ce qu'il comprend des 
moyens d' analyse des signaux vocaux utilisant une representation 
vectorielle des ressemblances entre la representation vocale du 
locuteur (k) et T ensemble predetermine de representations vocales 

20 de E locuteurs de reference, 

8. Systdme selon la revendication 7, caracterise en ce 
que les bases de donnees memorisent egalement 1' analyse des 
signaux vocaux effectuee par lesdits moyens d' analyse. 

9. Utilisation d'un procede selon Tune quelconque 
25 des revendications 1 a 6, pour une indexation de documents audio, 

10. Utilisation d'un procede selon Tune quelconque 
des revendications 1 a 6, pour une identification d'un locuteur. 

11. Utilisation d'un procede selon Tune quelconque 
des revendications 1 a 6, pour une verification d'un locuteur. 
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